征服元素周期表|OpenLAM大原子模型计划
彼得·蒂尔曾说:“我们期待着拥有飞行汽车,但最后只得到了140个字符(Twitter)。”过去十多年来,我们在比特层面(互联网)取得了很大的进步,但在原子层面(尖端科技)的进步却相对缓慢。
语言世界数据的积累推动了机器学习的发展,并最终推动了大语言模型(Large Language Model,LLM)的出现。在AI的推动下,原子层面的进步也正在加速。像深度势能这样的方法,通过学习量子力学数据,将人类微观模拟的时空尺度提升数个量级,并在药物设计、材料设计、化学化工等领域取得显著进展。
量子力学数据的积累正在逐渐覆盖整个元素周期表,深度势能团队也开始了DPA预训练模型的实践。类比LLM的进展,我们正处在通用大原子模型(Large Atom Model,LAM)出现的前夜。同时,我们认为,开源开放将在LAM的发展过程中起到愈发重要的作用。
在此背景下,深度势能核心开发者团队面向社区,发起OpenLAM大原子模型计划。这一计划仍在草稿阶段,并准备从2024年1月1日正式开始,我们热诚、开放地欢迎来自各方的意见和支持。
OpenLAM的口号是“征服元素周期表!”,希望通过建立开源开放的围绕微尺度大模型的生态,为微观科学研究提供新的基础设施,并推动材料、能源、生物制药等领域微尺度工业设计的变革。相关模型、数据、工作流将围绕科学智能广场(AIS Square)沉淀;相关软件开发将在DeepModeling开源社区进行。同时,我们欢迎不同社区在模型开发、数据共享、评估测试等方面实现开放的互动。
OpenLAM在接下来三年致力的目标是:2024年,第一性原理数据有效覆盖元素周期表,实现通用的性质学习能力;2025年,与大规模实验表征数据与文献数据结合,实现通用跨模态能力;2026年,实现面向目标的原子尺度通用生成与规划能力。最终,期待在5-10年内,实现原子尺度智能化科学发现与合成设计的“大原子具身智能”。
OpenLAM在2024的具体计划是:
模型更新与评估报告发布
从2024年1月1日起,由深度势能团队推动,并欢迎各LAM开发者参与;
每三个月进行一次模型版本迭代,更新内容包括但不限于:模型架构、相关数据、训练策略、评估测试准则;
AIS Cup 比赛
由深度势能团队推动、Bohrium云平台(https://bohrium.dp.tech/)支持,2024年3月发起,2024年年末结束;
希望推动围绕若干面向应用需求的指标的benchmark体系建立;
领域数据贡献
希望与领域开发者协作推动,建立“LAM-ready”的供预训练与评估的数据集;
每三个月,更新用以迭代训练最新模型的领域数据集;
领域应用与评估工作流贡献
每三个月,更新发布领域应用与评估工作流;
教育交流培训
我们期待推动一系列面向LAM开发者、领域开发者、用户的教育交流培训活动,推动领域的进步
如何联系我们?
我们鼓励在DeepModeling社区(https://github.com/deepmodeling/community/discussions)的直接讨论。如有更多不确定的问题,欢迎联系本计划的负责人王涵(wang_han@iapcm.ac.cn)、张林峰(zhanglf@aisi.ac.cn)
在征服元素周期表的路上,期待与你携手共创,共同走向微观世界AI for Science的新未来!
DeepModeling Blog
https://github.com/deepmodeling/blog/blob/master/source/_posts/openlam.md